检索结果

Select

1. 基于渐进比率掩蔽目标的自适应噪声估计方法

高建清, 屠彦辉, 马峰, 付中华

《计算机应用》唯一官方网站 2023, 43 (4): 1303-1308. DOI: 10.11772/j.issn.1001-9081.2022030384

摘要（318）

HTML （2）

PDF （1425KB）（61）

基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时，基于深度学习的语音增强算法通常无法正常工作。针对上述问题，提出一种新的基于渐进比率掩蔽（PRM）的自适应噪声估计（PRM-ANE）方法，并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均（IMCRA）算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先，使用二维卷积神经网络（2D-CNN）学习随信噪比（SNR）增加的PRM；其次，通过传统的帧级语音增强算法组合句子级估计的PRM，进行语音增强；最后，将基于多级别信息融合的增强语音直接作为语音识别系统的输入，从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明，所提方法可以实现7.42%的相对字识别错误率（WER），与IMCRA语音增强方法相比下降了51.41%，可见所提方法能够有效提升下游识别任务的性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于韵律特征辅助的端到端语音识别方法

刘聪, 万根顺, 高建清, 付中华

《计算机应用》唯一官方网站 2023, 43 (2): 380-384. DOI: 10.11772/j.issn.1001-9081.2022010009

摘要（314）

HTML （13）

PDF （1114KB）（132）

针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径，导致在部分场景下的解码结果存在明显的音对字错的问题，提出一种基于韵律特征辅助的端到端语音识别方法，利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上，首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征；然后将韵律特征与解码端结合，从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明，该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%，进一步改善了语音识别结果的可懂度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于时域波形的半监督端到端虚假语音检测方法

方昕, 黄泽鑫, 张聿晗, 高天, 潘嘉, 付中华, 高建清, 刘俊华, 邹亮

《计算机应用》唯一官方网站 2023, 43 (1): 227-231. DOI: 10.11772/j.issn.1001-9081.2021101845

摘要（443）

HTML （11）

PDF （6257KB）（314）

现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好，但对实际应用中的未知攻击类型检测效果显著降低。因此，结合最近提出的双路径Res2Net（DP?Res2Net），提出一种基于时域波形的半监督端到端虚假语音检测方法。首先，为了解决训练数据集和测试数据集两者数据分布差异较大的问题，采用半监督学习进行领域迁移；然后，对于特征工程，直接将时域采样点输入DP?Res2Net中，增加局部的多尺度信息，并充分利用音频片段之间的依赖性；最后，输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量，用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能，实验结果表明它的等错误率（EER）为19.97%，与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的，且具有更高的泛化能力。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于DSP的实时语音检测的设计与实现

杨永超付中华蒋冬梅

计算机应用

摘要（1320）

PDF （640KB）（1266）

提出了一种基于DSP的实时语音检测的方法，通过设置中断服务程序实现DSP与DMA的并行处理，采用双缓冲加一缓冲的方法保持语音连续性，利用短时能量状态转换图的方法对语音进行检测及存储，最后利用自制控制板实现程序控制和状态显示。实验结果表明，检测的语音数据和标注的语音数据相比较平均正确率可达94.98%，有效地实现了语音的实时处理。